如何对云监控指标进行智能巡检_日志服务(SLS)-阿里云帮助中心

云监控（CloudMonitor）是一项针对阿里云资源和互联网应用进行监控的服务，提供丰富的监控指标。日志服务支持接入云监控数据，并支持您使用智能巡检功能对云监控数据进行智能的异常巡检。

前提条件

已导入云监控数据到目标Metricstore中（例如Project：monitor，Metricstore：cloud-monitor-metrics）。具体操作，请参见导入云监控数据。

步骤一：分析数据

接入云监控数据后，您可以先选择一个指标进行分析，并构造对应的查询分析语句。当该指标的分析结果符合预期时，您可以根据业务需求筛选更多的指标，构造查询分析语句，用于创建智能巡检作业。

登录日志服务控制台。
进入Metricstore页面。
1. 在Project列表区域，单击目标Project。
2. 在时序存储 > 时序库页签中，单击目标Metricstore。
查看监控指标。
例如下图中已接入582个监控指标，详细的监控指标说明请参见预设监控项参考。此处以acs_ecs_dashboard:cpu_system:Average为例，选择该指标后，日志服务将通过时序图展示该指标的变化情况。
分析监控指标。
1. 单击页面右上角的查询页面。
2. 输入如下查询分析语句，单击查询/分析。
```
* |
select
  promql_query_range(
    'avg({__name__=~"acs_ecs_dashboard:cpu_system:Average"}) by (instanceId, __name__) ',
    '15s'
  )
FROM  metrics
limit
  1000000
```
  执行上述语句后，返回如下预期的结果，因此您可以将该查询分析语句应用到更多的监控指标中。

筛选监控指标。

根据业务需求选择更多的监控指标，构造查询分析语句，用于智能巡检。

* |
select
  time / 1000 as time,
  metric,
  element_at(labels, 'instanceId') as instanceId,
  value
FROM  (
    select
      promql_query_range(
        'avg({__name__=~"acs_ecs_dashboard:CPUUtilization:Average|acs_ecs_dashboard:DiskReadBPS:Average|acs_ecs_dashboard:DiskReadIOPS:Average|acs_ecs_dashboard:DiskWriteBPS:Average"}) by (instanceId, __name__) ',
        '1m'
      )
    FROM      metrics
  )
limit
  10000

ECS相关的重要指标如下所示。详细的监控指标说明请参见预设监控项参考。

acs_ecs_dashboard:CPUUtilization:Average
acs_ecs_dashboard:DiskReadBPS:Average
acs_ecs_dashboard:DiskReadIOPS:Average
acs_ecs_dashboard:DiskWriteBPS:Average
acs_ecs_dashboard:DiskWriteIOPS:Average
acs_ecs_dashboard:InternetIn:Average
acs_ecs_dashboard:InternetInRate:Average
acs_ecs_dashboard:InternetOut:Average
acs_ecs_dashboard:InternetOutRate:Average
acs_ecs_dashboard:InternetOutRate_Percent:Average
acs_ecs_dashboard:IntranetIn:Average
acs_ecs_dashboard:IntranetInRate:Average
acs_ecs_dashboard:IntranetOut:Average
acs_ecs_dashboard:IntranetOutRate:Average
acs_ecs_dashboard:cpu_idle:Average
acs_ecs_dashboard:cpu_other:Average
acs_ecs_dashboard:cpu_system:Average
acs_ecs_dashboard:cpu_total:Average
acs_ecs_dashboard:cpu_user:Average
acs_ecs_dashboard:cpu_wait:Average
acs_ecs_dashboard:disk_readbytes:Average
acs_ecs_dashboard:disk_readiops:Average
acs_ecs_dashboard:disk_writebytes:Average
acs_ecs_dashboard:disk_writeiops:Average
acs_ecs_dashboard:load_1m:Average
acs_ecs_dashboard:load_5m:Average
acs_ecs_dashboard:memory_actualusedspace:Average
acs_ecs_dashboard:memory_freespace:Average
acs_ecs_dashboard:memory_freeutilization:Average
acs_ecs_dashboard:memory_totalspace:Average
acs_ecs_dashboard:memory_usedspace:Average
acs_ecs_dashboard:memory_usedutilization:Average
acs_ecs_dashboard:net_tcpconnection:Average
acs_ecs_dashboard:networkin_errorpackages:Average
acs_ecs_dashboard:networkin_packages:Average
acs_ecs_dashboard:networkin_rate:Average
acs_ecs_dashboard:networkout_errorpackages:Average
acs_ecs_dashboard:networkout_packages:Average
acs_ecs_dashboard:networkout_rate:Average

步骤二：创建智能巡检作业

登录日志服务控制台。
进入创建作业页面。
1. 在日志应用区域，单击智能异常分析。
2. 在实例列表中，单击目标实例。
3. 在左侧导航栏中，单击智能巡检。
4. 在巡检任务区域，单击立即创建。
在创建智能巡检作业配置向导的基本信息区域，完成如下配置，然后单击下一步。
具体的参数说明，请参见通过SQL聚合指标数据进行智能巡检。
在创建智能巡检作业配置向导的算法配置区域，完成以下操作。
1. 在数据特征配置区域的数据类型中，选择通过SQL格式化数据，然后完成以下配置。
  
  其中，数据特征配置中的查询和分析语句请参见步骤5。具体的参数说明，请参见通过SQL聚合指标数据进行智能巡检。
2. 在算法配置区域，完成以下配置，然后在数据采样中，选择一个实体，单击预览采样数据，验证您所配置的参数与您的数据是否适配，以及执行结果是否符合您的预期。
3. 在调度配置区域，设置智能巡检作业开始执行的时间和数据延时时长。
  注意
  
  建议设置时间范围的起始时间为两天前的时间，使算法模型有足够的数据进行学习。
  
  由于导入云监控数据存在延迟（大约3分钟），因此建议设置数据延迟时长为300秒。
4. 单击下一步。
在创建智能巡检作业配置向导的告警配置区域，完成以下配置，然后单击完成。
如何获取钉钉请求地址，请参见钉钉-自定义。关于新版告警的更多信息，请参见什么是日志服务告警。

当指标异常时，即result.score大于0.75时，日志服务将发送告警通知到钉钉群中。接收到告警后，您可以在钉钉群中，对告警进行打标。具体操作，请参见告警与打标反馈。